Học máy là gì? Các công bố khoa học về Học máy
Học máy (Machine Learning) là một lĩnh vực trong trí tuệ nhân tạo nghiên cứu về việc phát triển các thuật toán và mô hình để máy tính tự động học hỏi và cải thi...
Học máy (Machine Learning) là một lĩnh vực trong trí tuệ nhân tạo nghiên cứu về việc phát triển các thuật toán và mô hình để máy tính tự động học hỏi và cải thiện hiệu suất từ kinh nghiệm mà không cần được lập trình cụ thể. Phương pháp này dựa trên việc xây dựng các mô hình dự đoán từ một tập dữ liệu huấn luyện và sử dụng các thuật toán để tìm ra các quy tắc, mô hình hoặc hàm số từ dữ liệu đó. Học máy có thể được áp dụng trong nhiều lĩnh vực như điều khiển tự động, nhận dạng hình ảnh, dịch thuật tự động, xử lý ngôn ngữ tự nhiên và nhiều lĩnh vực khác.
Học máy (Machine Learning) được chia thành ba loại chính: học có giám sát (supervised learning), học không giám sát (unsupervised learning) và học bán giám sát (semi-supervised learning).
1. Học có giám sát: Trong học có giám sát, mô hình học từ dữ liệu được gán nhãn trước đó. Ví dụ, nếu chúng ta muốn xây dựng một mô hình để dự đoán giá nhà dựa trên diện tích, số phòng ngủ và vị trí, chúng ta sẽ cung cấp cho mô hình một tập dữ liệu gồm các ví dụ với diện tích, số phòng ngủ, vị trí và giá nhà tương ứng. Mô hình sẽ học từ các ví dụ này và sau đó có thể dự đoán giá nhà cho các ví dụ mới không có nhãn.
2. Học không giám sát: Trong học không giám sát, mô hình học từ dữ liệu không có nhãn hoặc không có thông tin về kết quả mong muốn. Mục tiêu là khám phá cấu trúc, mẫu hay nhóm từ dữ liệu. Ví dụ, một thuật toán gom cụm (clustering algorithm) sẽ phân loại các điểm dữ liệu vào các nhóm dựa trên sự tương đồng của chúng.
3. Học bán giám sát: Trong học bán giám sát, dữ liệu được gán nhãn chỉ cho một phần nhỏ, trong khi phần còn lại là không có nhãn. Mô hình học từ cả các ví dụ có nhãn lẫn không nhãn để tìm hiểu mối quan hệ giữa dữ liệu và nhãn và sau đó sử dụng thông tin đó để dự đoán các nhãn cho các ví dụ không có nhãn.
Các phương pháp học máy phổ biến bao gồm cây quyết định (decision tree), mạng thần kinh nhân tạo (artificial neural networks), máy vector hỗ trợ (support vector machines), học tăng cường (reinforcement learning) và rất nhiều phương pháp khác. Quá trình học bao gồm việc chọn và xử lý dữ liệu, lựa chọn thuật toán học máy phù hợp, huấn luyện mô hình, và đánh giá và tinh chỉnh mô hình để đạt hiệu suất tốt nhất. Học máy đóng vai trò quan trọng trong việc phân tích dữ liệu, dự báo, nhận dạng, và tự động hóa quy trình trong nhiều lĩnh vực khác nhau.
Danh sách công bố khoa học về chủ đề "học máy":
Protein là yếu tố thiết yếu của sự sống, và việc hiểu cấu trúc của chúng có thể tạo điều kiện thuận lợi cho việc hiểu cơ chế hoạt động của chúng. Thông qua một nỗ lực thử nghiệm khổng lồ1–4, cấu trúc của khoảng 100.000 protein độc nhất đã được xác định5, nhưng điều này chỉ đại diện cho một phần nhỏ trong hàng tỷ chuỗi protein đã biết6,7. Phạm vi bao phủ cấu trúc đang bị thắt nút bởi thời gian từ vài tháng đến vài năm cần thiết để xác định cấu trúc của một protein đơn lẻ. Các phương pháp tính toán chính xác là cần thiết để giải quyết vấn đề này và cho phép tin học cấu trúc lớn. Việc dự đoán cấu trúc ba chiều mà một protein sẽ chấp nhận chỉ dựa trên chuỗi axit amin của nó - thành phần dự đoán cấu trúc của 'vấn đề gấp nếp protein'8 - đã là một vấn đề nghiên cứu mở quan trọng trong hơn 50 năm9. Dù đã có những tiến bộ gần đây10–14, các phương pháp hiện tại vẫn chưa đạt đến độ chính xác nguyên tử, đặc biệt khi không có cấu trúc tương đồng nào được biết đến. Tại đây, chúng tôi cung cấp phương pháp tính toán đầu tiên có khả năng dự đoán cấu trúc protein với độ chính xác nguyên tử ngay cả trong trường hợp không có cấu trúc tương tự nào được biết. Chúng tôi đã xác nhận một phiên bản thiết kế hoàn toàn mới của mô hình dựa trên mạng neuron, AlphaFold, trong cuộc thi Đánh giá Cấu trúc Protein Phê bình lần thứ 14 (CASP14)15, cho thấy độ chính xác có thể cạnh tranh với các cấu trúc thử nghiệm trong phần lớn các trường hợp và vượt trội hơn các phương pháp khác đáng kể. Cơ sở của phiên bản mới nhất của AlphaFold là cách tiếp cận học máy mới kết hợp kiến thức vật lý và sinh học về cấu trúc protein, tận dụng các sắp xếp nhiều chuỗi, vào thiết kế của thuật toán học sâu.
Học máy (Machine learning) nghiên cứu vấn đề làm thế nào để xây dựng các hệ thống máy tính tự động cải thiện qua kinh nghiệm. Đây là một trong những lĩnh vực kỹ thuật phát triển nhanh chóng hiện nay, nằm tại giao điểm của khoa học máy tính và thống kê, và là cốt lõi của trí tuệ nhân tạo và khoa học dữ liệu. Tiến bộ gần đây trong học máy được thúc đẩy bởi sự phát triển của các thuật toán và lý thuyết học mới cùng với sự bùng nổ liên tục trong việc sẵn có dữ liệu trực tuyến và khả năng tính toán chi phí thấp. Việc áp dụng các phương pháp học máy dựa trên dữ liệu đã xuất hiện trong khoa học, công nghệ và thương mại, dẫn đến việc ra quyết định dựa trên bằng chứng trong nhiều lĩnh vực cuộc sống, bao gồm chăm sóc sức khỏe, sản xuất, giáo dục, mô hình tài chính, cảnh sát và tiếp thị.
Nhờ vào những tiến bộ trong công suất xử lý, bộ nhớ, lưu trữ và kho dữ liệu chưa từng có, máy tính đang được yêu cầu giải quyết những nhiệm vụ học tập ngày càng phức tạp, thường đạt được thành công bất ngờ. Máy tính giờ đây đã thành thạo một biến thể phổ biến của trò chơi poker, học các luật vật lý từ dữ liệu thực nghiệm, và trở thành chuyên gia trong các trò chơi điện tử - những nhiệm vụ mà không lâu trước đây được coi là không thể thực hiện. Song song với đó, số lượng các công ty tập trung vào việc áp dụng phân tích dữ liệu phức tạp vào các ngành công nghiệp đa dạng đã bùng nổ, do đó không có gì đáng ngạc nhiên khi một số công ty phân tích đang chuyển sự chú ý đến các vấn đề trong lĩnh vực chăm sóc sức khỏe. Mục đích của bài đánh giá này là khám phá những vấn đề trong y học có thể được hưởng lợi từ các phương pháp học tập như vậy và sử dụng các ví dụ từ tài liệu để giới thiệu những khái niệm cơ bản trong học máy. Điều quan trọng là lưu ý rằng các tập dữ liệu y tế có vẻ đủ lớn và các thuật toán học tập thích hợp đã có sẵn trong nhiều thập kỷ, và mặc dù có hàng ngàn tài liệu áp dụng các thuật toán học máy vào dữ liệu y tế, rất ít trong số đó đã góp phần đáng kể vào việc chăm sóc lâm sàng. Sự thiếu tác động này nổi bật đối lập với sự liên quan khổng lồ của học máy đối với nhiều ngành công nghiệp khác. Do đó, một phần nỗ lực của tôi sẽ là xác định những trở ngại nào có thể tồn tại trong việc thay đổi thực hành y học thông qua các phương pháp học thống kê và thảo luận về cách thức vượt qua những trở ngại này.
Dịch COVID-19 (Bệnh Virus Corona 2019) đã dẫn đến nhiều hậu quả tâm lý nghiêm trọng. Mục tiêu của nghiên cứu này là khám phá tác động của COVID-19 đến sức khỏe tâm thần của mọi người, nhằm hỗ trợ các nhà hoạch định chính sách xây dựng các chính sách có thể hành động, và giúp các chuyên gia lâm sàng (ví dụ, nhân viên xã hội, bác sĩ tâm thần và nhà tâm lý học) cung cấp dịch vụ kịp thời cho các nhóm dân cư bị ảnh hưởng. Chúng tôi đã lấy mẫu và phân tích các bài đăng trên Weibo từ 17.865 người dùng Weibo hoạt động dựa trên phương pháp Nhận diện Sinh thái Trực tuyến (OER) với một số mô hình dự đoán học máy. Chúng tôi đã tính toán tần suất từ, điểm số của các chỉ số cảm xúc (ví dụ, lo âu, trầm cảm, tức giận, và hạnh phúc Oxford) và các chỉ số nhận thức (ví dụ, phán đoán rủi ro xã hội và sự hài lòng với cuộc sống) từ dữ liệu thu thập được. Phân tích cảm xúc và kiểm định t-test cặp được thực hiện để kiểm tra sự khác biệt trong cùng một nhóm trước và sau khi công bố dịch COVID-19 vào ngày 20 tháng 1 năm 2020. Kết quả cho thấy rằng các cảm xúc tiêu cực (ví dụ, lo âu, trầm cảm và tức giận) và sự nhạy cảm với rủi ro xã hội đã tăng lên, trong khi điểm số của cảm xúc tích cực (ví dụ, hạnh phúc Oxford) và sự hài lòng với cuộc sống đã giảm xuống. Mọi người quan tâm nhiều hơn đến sức khỏe và gia đình của họ, trong khi ít hơn về giải trí và bạn bè. Kết quả này góp phần vào việc lấp đầy khoảng cách kiến thức về sự thay đổi tâm lý ngắn hạn của cá nhân sau bùng phát dịch. Nó có thể cung cấp tài liệu tham khảo cho các nhà hoạch định chính sách trong việc lập kế hoạch và chiến đấu chống lại COVID-19 một cách hiệu quả bằng cách cải thiện sự ổn định của cảm xúc phổ quát và khẩn trương chuẩn bị cho các chuyên gia lâm sàng cung cấp nền tảng trị liệu tương ứng cho các nhóm có rủi ro và người bị ảnh hưởng.
Các hệ thống máy bay không người lái (UAS) đã phát triển nhanh chóng trong thập kỷ qua, chủ yếu nhờ vào các ứng dụng quân sự, và đã bắt đầu có chỗ đứng trong số các người dùng dân sự cho mục đích trinh sát cảm biến trái đất và thu thập dữ liệu khoa học. Trong số các UAS, những đặc điểm hứa hẹn bao gồm thời gian bay dài, độ an toàn trong nhiệm vụ được cải thiện, khả năng lặp lại chuyến bay nhờ vào việc nâng cấp hệ thống lái tự động, và giảm chi phí vận hành so với máy bay có người lái. Tuy nhiên, những lợi thế tiềm năng của một nền tảng không người lái phụ thuộc vào nhiều yếu tố, chẳng hạn như loại máy bay, loại cảm biến, mục tiêu của nhiệm vụ, và các yêu cầu quy định hiện hành dành cho hoạt động của nền tảng cụ thể. Các quy định liên quan đến việc vận hành UAS vẫn đang trong giai đoạn phát triển ban đầu và hiện tại tạo ra rào cản đáng kể cho người dùng khoa học. Trong bài viết này, chúng tôi mô tả nhiều loại nền tảng, cũng như khả năng của các cảm biến, và xác định những lợi thế của mỗi nền tảng liên quan đến các yêu cầu của người dùng trong lĩnh vực nghiên cứu khoa học. Chúng tôi cũng sẽ thảo luận ngắn gọn về tình trạng hiện tại của các quy định ảnh hưởng đến hoạt động của UAS, với mục đích thông báo cho cộng đồng khoa học về công nghệ đang phát triển này, mà tiềm năng cách mạng hóa quan sát khoa học tự nhiên tương tự như những biến đổi mà GIS và GPS đã mang lại cho cộng đồng hai thập kỷ trước.
Những lỗ hổng mới nổi đòi hỏi các cuộc thảo luận mới
Một thí nghiệm trong chậu được thực hiện để so sánh hai chiến lược xử lý ô nhiễm bằng thực vật: tích tụ tự nhiên sử dụng thực vật siêu tích tụ Zn và Cd là
Bài báo này xem xét các lý thuyết về giao tiếp tổ chức với nhấn mạnh đặc biệt vào các lý thuyết đã được sử dụng để giải thích các hiện tượng giao tiếp qua máy tính. Trong số các lý thuyết được xem xét, hai lý thuyết—sự hiện diện xã hội và độ phong phú của phương tiện—được xác định là có vấn đề và đặt ra những trở ngại cho sự phát triển lý thuyết trong tương lai. Mặc dù những hạn chế của các lý thuyết này đã được xác định trong quá khứ, một số dự đoán của các lý thuyết này đã được hỗ trợ bởi bằng chứng thực nghiệm. Bài báo lập luận rằng tình huống lý thuyết này có thể được giải quyết dựa trên các nguyên tắc được rút ra từ phiên bản hiện đại của lý thuyết tiến hóa của Darwin qua sự chọn lọc tự nhiên và việc áp dụng những nguyên tắc này vào việc hiểu về sự tiến hóa của con người. Một mô hình lý thuyết mới có tên là mô hình tâm sinh học được phát triển, dự đoán sự biến đổi trong nỗ lực nhận thức trong các nhiệm vụ hợp tác được hỗ trợ qua máy tính. Mô hình này đề xuất rằng có một mối liên hệ nguyên nhân tiêu cực giữa "tính tự nhiên" của một phương tiện giao tiếp qua máy tính, đó là sự tương đồng của phương tiện với phương tiện giao tiếp trực tiếp, và nỗ lực nhận thức cần thiết từ một cá nhân khi sử dụng phương tiện để chuyển giao kiến thức. Mô hình cũng nêu rõ mối liên hệ này được cân bằng bởi những gì được gọi là "sự đồng nhất của sơ đồ" và "sự thích ứng nhận thức". Khái niệm sự đồng nhất của sơ đồ đề cập đến sự tương đồng giữa các sơ đồ tư duy của một cá nhân và những người tham gia khác. Khái niệm sự thích ứng nhận thức đề cập đến mức độ phát triển sơ đồ của một cá nhân liên quan đến việc sử dụng một phương tiện cụ thể. Cuối cùng, mô hình cho rằng mức độ mà phương tiện hỗ trợ khả năng của một cá nhân trong việc truyền đạt và lắng nghe lời nói là đặc biệt quan trọng trong việc xác định tính tự nhiên của nó, hơn cả mức độ hỗ trợ của phương tiện đối với việc sử dụng biểu cảm khuôn mặt và ngôn ngữ cơ thể. Một ví dụ được đưa ra về cách mô hình tâm sinh học có thể được kiểm nghiệm trong bối cảnh do lĩnh vực hỗ trợ khách hàng của một nhà môi giới trực tuyến cung cấp.
Mục tiêu chính của nghiên cứu này là đánh giá và so sánh hiệu suất của các thuật toán học máy (ML) khác nhau, cụ thể là Mạng Nơron Nhân Tạo (ANN), Máy Học Tăng Cường (ELM) và thuật toán Cây Tăng Cường (Boosted), khi xem xét ảnh hưởng của các tỷ lệ đào tạo đối với kiểm tra trong việc dự đoán độ bền cắt của đất, một trong những tính chất kỹ thuật địa chất quan trọng nhất trong thiết kế và xây dựng công trình. Để thực hiện điều này, một cơ sở dữ liệu gồm 538 mẫu đất thu thập từ dự án nhà máy điện Long Phú 1, Việt Nam, đã được sử dụng để tạo ra các bộ dữ liệu cho quá trình mô hình hóa. Các tỷ lệ khác nhau (tức là 10/90, 20/80, 30/70, 40/60, 50/50, 60/40, 70/30, 80/20, và 90/10) đã được sử dụng để chia bộ dữ liệu thành bộ dữ liệu đào tạo và kiểm tra nhằm đánh giá hiệu suất của các mô hình. Các chỉ số thống kê phổ biến, chẳng hạn như Lỗi Bình Phương Trung Bình (RMSE), Lỗi Tuyệt Đối Trung Bình (MAE) và Hệ Số Tương Quan (R), đã được sử dụng để đánh giá khả năng dự báo của các mô hình dưới các tỷ lệ đào tạo và kiểm tra khác nhau. Ngoài ra, mô phỏng Monte Carlo đã được thực hiện đồng thời để đánh giá hiệu suất của các mô hình đề xuất, có tính đến ảnh hưởng của lấy mẫu ngẫu nhiên. Kết quả cho thấy mặc dù cả ba mô hình ML đều hoạt động tốt, nhưng ANN là mô hình chính xác nhất và ổn định nhất về mặt thống kê sau 1000 lần mô phỏng Monte Carlo (R Trung Bình = 0.9348) so với các mô hình khác như Boosted (R Trung Bình = 0.9192) và ELM (R Trung Bình = 0.8703). Điều tra về hiệu suất của các mô hình cho thấy khả năng dự báo của các mô hình ML bị ảnh hưởng lớn bởi các tỷ lệ đào tạo/kiểm tra, trong đó tỷ lệ 70/30 thể hiện hiệu suất tốt nhất của các mô hình. Một cách ngắn gọn, kết quả được trình bày ở đây thể hiện một cách thức hiệu quả trong việc lựa chọn các tỷ lệ dữ liệu phù hợp và mô hình ML tốt nhất để dự đoán chính xác độ bền cắt của đất, điều này sẽ hữu ích trong các giai đoạn thiết kế và kỹ thuật của các dự án xây dựng.
- 1
- 2
- 3
- 4
- 5
- 6
- 10